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摘 要 


随 着 传感器 和 网 络 技术 的 飞速 发 展 ， 大 量 历史 时 间 序 列 数据 出 现 ， 
高 效 准确 地 进行 时 间 序 列 预测 越 来 越 重 要 。 近 年 来 ， 将 深度 学 习 的 思想 
和 技术 运用 到 时 间 序 列 预测 任务 中 的 方法 发 展 迅速 ， 并 取得 了 许多 成 果 。 
本 文 分 析 了 时 间 序 列 预测 方法 的 国内 外 研究 现状 ， 论 述 了 时 间 序 列 预测 
所 涉及 的 相关 理论 ， 归 纳 总 结 了 该 任务 所 运用 的 传统 方法 、 基 于 机 器 学 
习 的 方法 和 基于 深度 学 习 的 方法 ， 重 点 对 比分 析 了 基于 深度 学 习 的 各 方 
法 的 优 缺 点 ， 并 由 此 对 基于 深度 学 习 的 时 间 序 列 预 测 方法 进行 了 展望 。 
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第 一 章 绪论 


1.1 背景 与 意义 


时 间 序 列 数据 在 人 金融、 气象、 农业、 工业 及 医疗 等 领域 存在 广泛 的 应 用 03。 近 
年 来 ， 随 着 传感器 和 网 络 技术 的 高 速 发 展 ， 使 得 生成 并 积累 大 量 的 时 间 序 列 数 据 成 
为 了 可 能 。 对 于 时 间 序 列 数据 领域 来 说 ， 通 常 涉及 到 分 类 、 异 常 检测 和 预测 等 多 个 
研究 问题 ， 其 中 时 间 序 列 预测 任务 是 其 研究 的 重点 。 与 普通 的 回归 分 析 预 测 模型 不 
同 ， 时 间 序 列 模型 更 依赖 于 数据 在 时 间 维 度 上 的 先后 顺序 。 时 间 序 列 预测 包括 连续 
型 预测 〈 数 值 预测 或 范围 估计 ) 与 离散 型 预测 〈 事 件 预测 ) 等， 其 核心 就 是 从 过 去 
时 序数 据 中 挖掘 出 规律 ， 并 利用 其 对 将 来 的 发 展 趋势 做 出 估计 。 由 于 时 间 序 列 预测 
研究 能 够 分 析 其 强 含 的 规律 来 预测 未 来 发 展 趋 势 ， 为 各 行业 的 决策 过 程 提供 指导 ， 
因此 具有 很 高 的 学 术 意 义 和 应 用 价值 。 

对 于 时 间 序 列 预 测 问题 来 说 ， 随 着 时 序数 据 积累 量 增加 和 数据 维度 增长 ， 其 研 
究 方法 也 不 断 得 到 改进 。 从 最 初 的 数学 统计 方法 进展 到 机 器 学 习 的 方法 ， 再 发 展 到 
深度 学 习 的 方法 。 由 于 自然 语言 处 理 本 质 上 也 就 有 时 序 性 要 求 ， 随 着 深度 学 习 在 自 
然 语言 处 理 任务 上 取得 的 巨大 成 果 ， 因 此 被 广泛 使 用 的 深度 学 习 技 术 也 被 借鉴 到 时 
间 序 列 研 究 领 域 。 基 于 深度 学 习 的 时 间 序 列 预 测 方法 得 到 了 快速 的 发 展 ， 因 此 有 必 
要 对 其 发 展 的 历史 和 现状 进行 分 析 和 讨论 。 

本 文 首 先 对 于 时 间 序 列 预测 问题 进行 了 讨论 ， 然 后 对 于 其 研究 方法 进行 了 梳理 
针对 基于 深度 学 习 的 研究 方法 按照 其 不 同 的 实现 网 络 类 型 分 别 进行 了 分 析 和 讨论 ， 
在 文章 最 后 对 于 时 间 序 列 预 测 技术 的 发 展 进行 了 进一步 展望 。 

1.2 时 间 序 列 


~ 


时 间 序 列 一 般 是 指 对 某 种 事物 发 展 变化 过 程 进行 观测 并 按照 一 定 频率 采集 得 出 
的 一 组 随机 变量 。 
由 于 时 间 序 列 数 据 各 变量 间 具 有 固有 的 潜在 联系 ， 常 表现 出 一 种 或 多 种 特性 。 
为 了 更 全 面 地 了 解 时 序 预测 ， 本 章 将 详细 介绍 以 下 常见 特性 : 

1、 海 量 性 随 着 物 联 网 传感器 设备 的 升级 、 测 量 频率 的 提高 以 及 测量 维度 的 增加 ， 
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时 间 序 列 数据 呈 爆 炸 性 增长 ， 高 维度 的 时 间 序 列 数据 占据 主流 。 在 数据 集 层 面 进 行 
有 效 的 预 处 理工 作 是 高 质量 完成 时 间 序 列 预 测 任务 的 关键 。 

2、 趋 势 性 : 当前 时 刻 的 数据 往往 与 前 一 段 时 刻 的 数据 密切 相关 ， 这 一 特点 表明 
时 间 序 列 数据 受 其 他 因素 影响 通常 有 一 定 的 变化 规律 ， 可 能 在 长 时 间 内 展现 出 平稳 
上 升 、 平 稳 下 降 或 保持 水 平 的 趋势 。 

3、 周 期 性 : 时 间 序 列 中 的 数据 受 外 界 因 素 影 响 ， 在 长 时 间 内 呈现 出 起 伏 的 交替 
变化 。 例 如 ， 涨 湖 退 滴 ， 一 周 内 湖水 高 度 不 符合 趋势 性 变化 ， 不 是 朝 着 茶 一 方向 的 
近似 直线 的 平稳 运动 。 

4、 波 动 性 ， 随 着 时 间 推 移 和 外 部 多 因素 的 影响 ， 时 间 序 列 的 方差 和 均值 可 能 会 
发 生 系 统 性 变化 ， 从 而 在 一 定 程 度 上 影响 时 间 序 列 预测 的 准确 度 。 

5、 平 稳 性 : 时 间 序 列 数 据 在 个 别 时 间 点 上 可 能 表现 为 随机 变动 ， 但 在 不 同时 间 
上 呈现 统计 规律 ， 同 时 在 方差 和 均值 上 保持 相对 稳定 。 

6、 对 称 性 : 如 果菜 段 时 间 周 期 内 ， 原 始 的 时 间 序 列 和 其 反 转 时 间 序 列 的 距离 控 
制 在 一 定 的 阔 值 以 内 ， 曲 线 基 本 对 齐 ， 即 认定 该 段 时 间 序 列 具 有 对 称 性 。 例 如 ， 港 
口 大 型 运输 车 往复 作业 ， 起 重 机 抬 臂 和 降 臂 工 作 等 。 

1.3 时 间 序 列 预测 


时 间 序 列 预测 任务 是 指 从 众多 数据 中 挖掘 出 其 列 含 的 核心 规律 并 且 依 据 已 知 的 
因素 对 未 来 的 数据 做 出 准确 的 估计 。 

对 于 单 步 时 间 序 列 预测 ， 使 用 历史 观测 值 和 协 变 量 作为 输入 变量 ， 来 预测 下 一 
个 时 间 步 的 观测 值 。 这 种 预测 过 程 被 称 为 单 步 预测 。 

然而 ， 在 很 多 预测 应 用 中 ， 需 要 预测 在 未 来 一 段 时 间 内 观测 序列 变化 的 趋势 。 
例如 ， 某 一 区 域 在 未 来 一 段 时 间 的 用 电量 、 元 器 件 在 一 段 时 间 的 退化 趋势 、 股 票 价 
格 在 未 来 时 间 段 中 的 变化 趋势 等 。 这 种 情况 需要 对 未 来 多 个 时 间 步 的 时 间 序 列 进行 
预测 。 通 常 使 用 历史 观测 值 和 协 变量 作为 输入 ， 来 预测 未 来 ma 个 时 间 步 的 预测 值 。 
这 种 时 间 序列 预测 被 称 为 多 步 预测 。 

时 间 序 列 多 步 预测 有 五 种 策略 ， 分 别 为 直接 多 步 预测 (Direct Multi-step Forecast)、 
递归 多 步 预测 (Recursive Multi-step ForecasD、 直 接 递归 混合 预测 (Direct-Recursive Hy 
brid Forecast)、 多 输出 预测 (Multiple Output Forecast), seq2seq 预测 (seq2seq Forecast). 


BE 时 间 序 列 预测 方法 


2.1 传统 时 间 序 列 建 模 方法 


传统 时 间 序 列 预测 方法 主要 是 在 确定 时 间 序 列 参数 模型 的 基础 上 ， 求 解 出 模型 
参数 ， 并 利用 求解 出 的 模型 完成 未 来 预测 工作 。 以 下 是 一 些 典 型 的 方法 : 

ARIMA 模型 + ARIMA (Auto-Regressive Integrated Moving Averages) 是 一 种 被 
广泛 使 用 的 时 间 序 列 预测 统计 方法 外 。 在 处 理 过 程 中 ， 首 先 需要 对 观测 值 序列 进行 平 
稳 性 检测 ， 接 着 对 其 进行 白 噪声 检验 ， 计 算 ACF 〈 自 相关 系数 ) 和 PACF〔 偏 自 相 
关系 数 ) 进行 检验 ， 进 而 进行 预测 。 基 于 ARIMA 方法 还 有 许多 改进 算法 ， 如 SARI 
MA 和 SARIMAX $5], 

Holt-Winters 方法 : Holt-Winters 法 扩展 了 传统 的 Holt 方法 来 捕捉 季节 性 向。Hol 
t-Winters 方法 包括 预测 方程 和 设置 三 个 平滑 方程 中 参数 a 、B 和 YY 分 别 用 于 水 平 、 
趋势 和 季节 性 分 量 预 测 。 

对 于 处 理 简单 的 时 序 预 测 问 题 ， 传 统 时 序 模型 可 以 发 挥 较 大 的 优势 。 然 而 ， 如 
果 变 量 和 维度 过 多 ， 变 化 模式 过 于 复杂 ， 传 统 时 序 模 型 就 显得 力不从心 。 在 这 种 情 
况 下 ， 更 复杂 的 模型 可 能 更 为 适用 。 

2.2 基于 时 间 序 列 分 解 的 分 析 法 


时 间 序 列 分 解法 一 直 是 时 间 序 列 分 析 中 非常 有 用 的 方法 。 该 方法 认为 一 个 时 间 
序列 往往 是 以 下 多 种 变化 形式 的 印加 或 灯 合 : 

长 期 趋势 (Secular Trend, T): 在 较 长 时 期 内 持续 发 展 变 化 的 整体 趋势 或 状态 。 

季节 变动 (Seasonal Variation, S): 由 于 季节 变化 引发 的 时 间 序 列 规则 变化 。 

循环 波动 (Cyclical Variation, C): 以 若干 年 (或 周期 ) 为 期 限 ， 不 具 严 格 规则 的 
周期 性 连续 变动 。 

不 规则 波动 (Irregular Variation, D: 由 于 各 种 偶然 因素 对 时 间 序 列 发 展 造成 的 影 
响 。 

根据 不 同 的 应 用 场景 ， 时 间 序 列 可 以 按照 加 法 原则 和 乘法 原则 进行 分 解 。 加 法 
模型 中 成 分 之 间 是 相互 独立 的 ， 某 种 成 分 的 变动 并 不 影响 其 他 成 分 的 变动 ， 各 个 成 
分 都 用 绝对 量 表 示 ， 并 且 具 有 相同 的 量 纲 。 乘 法 模型 中 四 种 成 分 之 间 保 持 着 相互 依 
存 的 关系 ， 一 般 而 言 ， 长 期 趋势 用 绝对 量 表示 ， 具 有 和 时 间 序 列 本 身 相 同 的 量 纲 ， 
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其 他 成 分 则 用 相对 量 表示 。 

一 种 典型 的 时 间 序 列 分 解 方法 是 Facebook 开源 的 Prophet 模型 中 ， 它 将 时 间 序 列 
分 解 为 趋势 项 、 季 节 性 项 〈 周 或 月 ) 、 节 假日 项 以 及 噪音 项 相 加 。 

时 间 序 列 分 解 的 方法 更 重要 的 是 提供 了 一 种 对 于 时 间 序 列 的 分 析 思 路 。 在 后 续 
的 机 器 学 习 和 深度 学 习 方 法 中 ， 很 多 都 按照 这 种 分 解 思路 对 于 时 间 序 列 预测 问题 进 
行 设计 和 规划 。 
2.3 基于 机 器 学 习 的 方法 


时 间 序 列 数据 预测 工作 本 质 上 与 机 器 学 习 方法 中 的 回归 分 析 之 间 存 在 着 紧密 的 
联系 。 机 器 学 习 算法 按照 实现 方法 主要 分 为 以 下 几 类 : 

支持 向 量 回归 (SVR): 基于 统计 学 习 理论 ， 具 有 很 好 的 泛 化 能 力 。SVR 通过 核 函 
数 方法 将 输入 映射 到 高 维 空间 ， 不 增加 计算 复杂 性 ， 并 有 效 克 服 维 数 灾难 问题 。 在 
时 间 序 列 预测 中 ， 使 用 SVR 称 为 支持 向 量 回归 (SVR)， 对 非 线 性 时 间 序 列 具 有 稳定 
的 预测 能 力 中 。SVR 通过 非 线性 函数 变换 将 输入 映射 到 高 维特 征 空间 ， 然 后 在 此 高 
维特 征 空间 中 找到 能 够 准确 表明 输出 数据 和 输入 数据 之 间 关 系 的 函数 。 

梯度 渐进 回归 (GBRT): 是 一 种 将 梯度 下 降 方 法 引入 解决 回归 问题 的 方法 。GBR 
T 算 法 通过 利用 损失 函数 的 负 梯 度 进 行 计算 和 迭代 ， 最 终 得 到 最 佳 模型 。 该 算法 的 目 
的 是 找到 一 个 函数 ， 使 得 该 函数 对 应 的 损失 函数 期 望 最 低 四 。GBRT 算法 实际 上 是 利 
用 多 个 基 函 数 的 累加 展开 式 对 该 函数 进行 逼近 的 方法 。 它 对 异常 值 的 鲁 棒 性 较 高 ， 
广泛 用 于 时 间 序 列 预测 。 

隐 马 尔 可 夫 模 型 (HMM): 是 一 种 统计 学 模型 ， 为 多 变量 时 间 序 列 预测 建 模 提 供 
了 概率 框架 。HMM 是 双 随 机 过 程 ， 包 括 具 有 一 定 状态 数 的 隐 马 尔 可 夫 链 和 显示 随机 
函数 集 。 隐 马尔 可 夫 链 不 可 观测 ， 但 可 以 通过 产生 一 系列 观测 结果 的 一 组 过 程 来 估 
计 00。HMM 是 一 种 最 简单 的 动态 贝 叶 斯 网 络 ， 其 他 模型 在 动态 贝 叶 斯 网 络 框 架 内 泛 
化 了 基本 的 HMM， 人 允许 更 多 隐藏 状态 变量 。 HMM 提供 了 一 个 概率 框架 ， 计 算 观 察 
序列 的 发 生 概 率 ， 并 选择 最 能 解释 观测 结果 的 状态 序列 。 
2.4 基于 深度 学 习 的 方法 


随 着 深度 学 习 在 计算 机 视觉 和 自然 语言 处 理 方面 取得 显著 成 就 ， 深 度 学 习 方法 
也 逐渐 引入 到 时 间 序 列 预 测 应 用 中 。 通 过 构建 各 种 网 络 结构 ， 深 度 神 经 网 络 能 够 更 
好 地 进行 高 维 数据 表征 ， 从 而 减少 对 手动 特征 工程 和 模型 设计 的 需求 。 通 过 定义 损 
失 函 数 ， 深 度 神 经 网 络 可 以 更 方便 地 进行 端 到 端的 训练 。 
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深度 神经 网 络 通过 多 个 非 线 性 层 来 构建 以 往 时 间 序 列 特征 表示 ， 从 而 学 习 时 间 
序列 内 部 变化 规律 。 在 神经 网 络 的 学 习 过 程 中 ， 可 以 认为 将 相关 历史 时 序 信息 编码 
到 隐 变 量 中 ， 最 终 成 为 了 隐 变 量 和 当前 输入 的 输出 。 

针对 不 同 的 应 用 场景 ， 在 深度 学 习 中 隐藏 层 采 用 了 不 同 的 实现 形式 ， 从 而 采用 
了 不 同 的 神经 网 络 架构 来 进行 实现 。 

2.4.1 基于 卷 积 神经 网 络 的 方法 

卷 积 神经 网 络 (CNN) 在 计算 机 视觉 方面 得 到 广泛 应 用 ， 能 够 提取 跨 空间 维度 
不 变 的 局 部 特征 。 同 样 ， 它 也 可 以 在 时 间 维 度 提取 出 局 部 特征 ， 通 过 多 层 隐 层 逐 渐 
在 上 一 层 进行 汇总 ， 从 而 获得 过 去 时 间 段 较 长 序列 的 隐藏 信息 。 

改进 前 的 传统 卷 积 神经 网 络 中 ， 通 过 多 层 隐 层 汇 聚 ， 输 入 信息 和 最 终 输 出 预测 
结果 的 关联 有 限 ， 输 出 信息 难以 关联 到 之 前 更 远 的 时 间 序 列 信息 ， 导 致 传统 卷 积 神 
经 网 络 在 时 间 序 列 预 测 能 力 上 表现 有 限 。 

为 了 扩大 隐藏 层 的 感受 范围 ，DeepMind 提出 了 基于 空洞 因果 卷 积 的 语音 生成 模 
型 WaveNetl11。 后 续 专 家 们 发 现 这 种 方法 也 适用 于 时 间 序 列 的 预测 。 脱 胀 卷 积 可 以 
解释 为 对 于 本 层 特征 进行 下 采样 的 卷 积 ， 即 降低 分 辨 率 以 合并 来 自 更 久远 信息 。 通 
过 增加 每 一 层 的 膨胀 率 ， 膨 胀 卷 积 可 以 逐渐 聚合 不 同时 间 块 的 信息 ， 有 效 地 利用 到 
时 间 序 列 中 长 远 的 历史 信息 [1。 

时 间 卷 积 网 络 (CN) 将 序列 看 作 一 个 一 维 对 象 帧 ， 通 过 运 代 多 层 卷 积 来 捕捉 
长 期 关系 5 区。TCN 利用 因果 卷 积 、 空 洞 卷 积 以 及 残 差 卷 积 的 跳 层 连接 ， 适 应 时 序 
数据 的 时 序 性 并 提供 更 宽广 的 时 域 感受 野 用 于 时 序 建 模 。 TCN 网 络 结构 允许 并 行 计 
算 输出 ， 提 高 了 运行 效率 。 基 于 这 个 思想 ， 出 现 了 一 系列 基于 TCN 网 络 的 改进 网 络 。 

SCINet 采用 层次 化 卷 积 网 络 结构 ， 以 不 同 的 时 间 分 辨 率 迷 代 地 提取 和 汇聚 特征 ， 
学 习 具 有 增强 可 预测 性 的 有 效 表 示 05。 整 个 SCINet 结构 是 一 个 二 又 树 ， 在 每 个 SCI- 
Block 中 ， 时 间 序 列 被 分 为 两 个 部 分 ， 随 着 二 又 树 深 度 的 增加 ， 更 精细 的 时 序 信息 也 
会 被 提取 出 来 。 通 过 这 种 方式 ， 时 间 序 列 中 短期 和 长 期 的 依赖 关系 都 能 被 网 络 学 习 
到 。 

2.4.2 基于 循环 神经 网 络 的 方法 

循环 神经 网 络 CRNN) 一 直 被 用 于 序列 建 模 ， 在 各 种 自然 语言 处 理 任务 上 取得 
了 很 好 的 效果 。RNN 网 络 的 核心 是 可 以 学 习 到 预测 前 所 有 时 间 序 列 内 部 隐藏 状态 ， 
作为 过 去 信息 的 特征 表征 ， 并 结合 当前 的 输入 给 出 下 一 步 预测 的 结果 。 在 每 个 时 间 
步 ， 可 以 使 用 新 的 观测 值 不 断 地 递归 更 新 隐 层 状态 。 因 此 ， 在 深度 学 习 方 法 中 ， 基 
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于 RNN 的 网 络 架构 最 早 被 应 用 于 时 间 预 测 场景 。 

早期 的 RNN 变 体 在 学 习 数 据 中 的 长 期 串 行 依赖 关系 时 可 能 会 受到 梯度 爆炸 和 消 
失 问 题 的 限制 。 为 了 解决 这 个 问题 ， 引 入 了 长 短期 记忆 (STM) 网 络 09。LSTM 网 
络 的 设计 灵感 来 自 于 计算 机 的 逻辑 控制 门 ， 通 过 各 种 门 控制 记忆 元 素 ， 例 如 使 用 输 
出 门 控制 从 单元 中 输出 序列 ， 使 用 输入 门 诀 定 何 时 将 数据 读 入 单元 ， 使 用 遗 瑟 门 管 
理 重 置 单 元 的 内 容 。LSTM 通过 训练 得 到 的 权重 可 以 诀 定 何 时 记忆 或 忽略 隐 状 态 中 
的 输入 ， 因 此 成 为 基于 RNN 的 时 间 序 列 预测 的 重要 组 成 部 分 。 

DeepAR 网 络 采用 LSTM 模型 解雇 时 间 序 列 预测 问题 487。 在 训练 阶段 ， 每 个 时 
刻 传 入 上 一 时 刻 的 真实 值 和 协 变量 输入 ， 经 过 LSTM 单元 后 预测 下 一 个 时 刻 的 值 。 
在 预测 阶段 ， 将 模型 在 上 一 个 时 刻 的 预测 值 作 为 输入 ， 蔡 代 训 练 过 程 中 上 一 个 时 刻 
真实 值 的 输入 。 
基于 循环 网 络 的 Deep State Space 模型 包含 一 种 基于 状态 空间 转换 的 预测 方法 
该 模型 预 估 了 连续 两 个 隐 状 态 的 关系 ， 实 现 了 从 当前 的 隐 状 态 到 当前 时 刻 预 估 结果 
的 预测 。 相 比 之 前 的 方法 ， 该 模型 不 需要 在 预测 过 程 中 输入 上 一 个 时 刻 的 真实 值 或 
预测 值 ， 通 过 隐 状 态 建 立 连 续 两 个 时 刻 的 联系 ， 解 决 了 训练 和 预测 不 一 致 的 问题 。 

为 了 克服 训练 模型 时 可 能 产生 的 大 量 复制 数据 和 占用 大 量 内 存 资源 的 问题 ， 交 
叉 式 训练 方法 被 提出 中 ， 该 方法 在 不 复制 数据 的 情况 下 达到 了 滑动 窗 相 似 的 训练 效 
果 ， 很 好 地 兼顾 了 短期 和 长 期 预测 。 

此 外 ， 一 种 能 结合 指数 平滑 和 循环 神经 网 络 的 混合 模型 被 提出 PRI， 兼容 了 各 自 的 
建 模 优 势 ， 有 助 于 提升 时 间 序 列 预 测 性 能 ， 取 得 了 良好 效果 。 

2.4.3 基于 自 注意 力 网 络 的 方法 

目 注意 力 网 络 最 早产 生 于 自然 语言 处 理 任务 ， 其 中 Transformer 是 2017 年 的 论 
文 《Attention is All You Need》 中 提出 的 自 注意 力 模 型 Pil。 这 篇 论文 通过 实验 针对 机 
器 翻译 场景 ， 取 得 了 当时 最 好 的 效果 。 由 于 Transformer 的 编码 器 部 分 采用 了 并 行 计 
算 方式 ， 训 练 和 推理 时 间 大 大 缩短 ， 为 序列 化 信息 处 理 开辟 了 新 的 思路 。 目 前 在 自 
然 语 言 处 理 各 业务 主流 的 语言 模型 ， 如 GPT、BERT 等 ， 都 是 基于 Transformer 模型 。 
由 于 与 自然 语言 处 理 任 务 的 相似 性 ，Transformer 的 方法 也 很 快 被 应 用 到 时 间 序 列 预 
测 任务 上 。 

在 循环 神经 网 络 (RNN) 中 ， 分 析 时 间 序 列 需要 按照 依次 迭代 的 顺序 处 理 从 t-n 
到 t 的 所 有 信息 。 当 两 个 时 间 点 相距 较 远 时 ， 它 们 之 间 的 隐 层 联系 通常 较 差 ， 而 且 由 
于 其 顺序 性 处 理 效率 也 较 低 。 基 于 注意 力 机 制 的 模型 可 以 实现 输入 时 间 序 列 中 每 个 
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单元 之 间 的 两 两 关联 ， 对 于 下 层 特 征 通过 关联 权重 加 权 的 表征 ， 提 供给 上 一 层 进 行 
处 理 。 自 注意 力 机 制 可 以 更 好 地 实现 时 序 的 上 下 文 信息 交互 
文献 [22] 采用 了 与 GPT 相似 的 Transformer 结构 尝试 了 时 间 序 列 预测 任务 ， 并 
取得 了 较 好 的 效果 。Transformer 模型 具有 提高 预测 能 力 的 潜力 ， 但 同时 也 存在 计算 
量 大 、 内 存 占用 高 和 编码 器 -解码 器 架构 等 限制 ， 使 其 无 法 直接 应 用 于 更 长 时 间 序 列 
预测 问题 。 文 献 [23] 提出 了 卷 积 自 注意 力 ， 通 过 在 自 注意 力 层 中 使 用 因果 卷 积 生成 
查询 (Queries) 和 键 (Key) ， 降 低 了 计算 复杂 度 。InformerB9 通 过 选择 O(log L) A 
主导 地 位 的 查询 ， 从 而 在 计算 复杂 上 度 上 实现 了 改进 ， 并 通过 生成 式 解码 器 直接 产生 
长 期 预测 序列 ， 避 免 了 使 用 单 步 前 向 预测 时 的 累积 误差 。 
另 一 方面 ， 学 者 们 在 时 间 序 列 建 模 中 探索 频 域 自 注 意 力 机 制 。AutoformerP235 设 计 了 一 
种 短期 趋势 分 解 架构 ， 其 自 相 关机 制 用 作 注 意 力 模块 。 不 同 于 之 前 的 注意 力 机 制 ， 
它 测量 输入 信号 之 间 的 时 延 相似 性 ， 并 聚合 前 k 个 相似 的 子 序列 以 产生 有 具有 O(L log 
L) 复 杂 度 的 输出 。FEDformer29 通 过 傅 里 时 变换 和 小 波 变换 在 频 域 中 应 用 注意 力 操作 ， 
过 随机 选择 固定 大 小 的 频率 子 集 来 实现 线性 复杂 度 。 
2.4.4 基于 图 神经 网 络 的 方法 
多 元 时 间 序 列 预测 中 ， 变 量 之 间 存 在 相互 依赖 ， 而 现 有 方法 无 法 完全 利用 变量 
之 则 的 潜在 空间 依赖 性 。 近 年 来 ， 图 神经 网 络 (Graph Neural Network, GNN) 在 处 
理 关 系 依赖 方面 表现 出 了 很 强 的 能 通常 ， 通 过 图 结构 学 习 层 定义 信息 传播 的 图 
结构 ， 然 后 进行 卷 积 操作 ， 通 过 捕获 时 间 序 列 内 的 空间 和 时 间 依 赖 性 ， 对 多 变量 时 
间 序 列 进行 预测 。 
文献 [27] 提出 了 一 个 为 多 元 时 间 序 列 数 据 设 计 的 通用 图 神经 网 络 框架 。 通 过 图 
学 习 模 块 自动 提取 变量 之 间 的 关系 ， 并 将 变量 信息 整合 到 其 中 。 在 网 络 中 ， 图 卷 积 
模块 与 时 间 卷 积 模块 相互 交错 ， 分 别 捕获 空间 和 时 间 相 关 性 。 使 用 混合 跳跃 传播 层 
来 捕获 时 间 序 列 内 的 空间 和 时 间 依 赖 性 。 
文献 [28] 在 多 变量 时 间 序 列 预测 中 使 用 图 神经 网 络 ， 采 用 了 NN 个 节点 的 全 连接 
， 按 照 内 部 相关 性 映射 为 K 个 节点 连接 图 ， 从 而 减少 了 图 神经 网 络 的 节点 规模 ， 
将 图 模型 的 复杂 度 由 O(N^2) 转 化 为 O(NK)， 实 现 了 精度 和 计算 复杂 度 之 间 的 平衡 。 
文献 [29] 提出 了 一 种 新 颖 的 图 神经 网 络 架 构 Graph WaveNet， 用 于 时 空 图 建 模 。 
通过 引入 自 适 应 的 图 建 模 方 法 并 通过 节点 嵌入 来 学 习 ， 可 以 精确 地 捕 换 数据 中 隐藏 
的 空间 依赖 性 。 同 时 ， 通 过 空洞 因果 一 维 卷 积 模型 蔡 代 RNN 模型 ， 更 容易 提取 长 期 
时 序 关 系 。 
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2.4.5 基于 残 差 的 全 连接 网 络 方法 

文献 [30] 提出 了 Nbeats 模型 ， 该 模型 内 部 结构 中 没有 RNN、CNN 或 Attention， 
网 络 全 部 由 全 连接 层 组 成 ， 在 时 间 序 列 预测 方面 取得 了 很 好 的 效果 。 

Nbeats 的 核心 思路 是 通过 多 个 全 连接 卷 积 块 〈FC Blocks) 串联 ， 每 个 FC Block 
学 习 输 入 时 间 序 列 的 一 部 分 信息 。 进 入 下 一 个 FC Block 的 输入 会 去 挥 之 前 Block 已 
经 学 到 的 信息 ， 后 续 的 Block 只 关注 学 习 于 之 前 Block 未 学 到 的 信息 ， 类 似 于 GBDT 

不 断 拟 合 的 思路 。 在 预测 过 程 中 ， 将 综合 各 个 Block 的 预 估 结 果 得 到 最 终 预 估 结 果 。 
通过 这 种 方式 ， 模 型 每 层 更 加 关注 前 层 无 法 正确 拟 合 的 残 差 ， 也 将 时 间 序 列 进行 了 
从 趋势 到 细节 的 逐 层 分 解 。 

具体 而 言 ，Nbeats 的 模型 结构 包括 多 个 Stack， 每 个 Stack 包括 多 个 FC Block, 
每 个 FC Block 为 最 基础 的 结构 模块 ， 由 多 个 全 连接 层 组 成 。 

为 了 考虑 到 时 间 序 列 预测 问题 中 的 外 部 特征 ， 如 日 期 信息 、 节 日 信息 、 属 性 信 
A, NBEATSxB! 提出 了 可 以 引入 外 部 特征 的 Nbeatsx 网 络 。 与 初版 Nbeats 的 主要 
区 别 是 引入 了 外 部 特征 x。GAGAB2 将 Nbeats 扩展 到 了 时 空 预测 领域 ， 能 够 处 理 存 
在 空间 关系 的 多 个 时 间 序 列 的 建 模 。 在 先前 的 模型 增加 了 Time Gate 和 Graph Gate 
等 网 络 结构 ， 舱 套 到 先前 的 网 络 中 。 

相 比 其 他 时 间 序 列 预 测 模型 ，Nbeats 独创 了 一 种 全 部 为 全 连接 的 主体 网 络 架 构 。 
通过 对 时 间 序 列 进行 由 粗 到 细 的 序列 信息 分 解 ， 不 断 进行 细 化 ， 实 现 准确 的 时 间 序 
列 预测 。 
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本 文 首先 详细 介绍 了 时 间 序 列 预测 的 相关 背景 知识 ， 其 次 对 于 早期 用 于 时 间 序 
列 预测 的 诸多 方法 进行 了 介绍 ， 其 中 包括 传统 方法 和 机 器 学 习 的 方法 ， 同 时 也 在 此 
基础 上 分 析出 了 这 些 方法 的 继承 点 和 不 足 的 地 方 ， 最 后 重点 介绍 和 对 比 各 基于 深度 
学 习 的 不 同 模型 设计 的 方法 。 
虽然 基于 深度 学 习 的 时 间 序 列 预测 方法 取得 了 显著 的 发 展 ， 但 未 来 的 预测 应 用 
场景 对 其 提出 了 更 高 的 要 求 。 为 进一步 研究 这 一 技术 ， 几 个 主要 的 研究 方向 如 下 : 

整合 领域 知识 : 针对 不 同 的 使 用 领域 ， 深 度 学 习 模 型 需要 充分 整合 各 自 领 域 
的 知识 ， 以 获得 更 高 的 精度 和 效率 。 这 意味 着 在 建立 模型 时 要 考虑 特定 领域 的 特殊 
性 ， 充 分 利用 领域 专业 知识 。 

、 因 果 性 推断 : 目前 时 间 序 列 预测 主要 通过 序列 内 部 的 相关 性 分 析 实 现 ， 未 来 
的 应 用 中 需要 更 多 关注 因果 性 推断 。 模 型 的 预测 可 解释 性 需要 进一步 加 强 ， 确 保 用 
户 能 够 理解 模型 的 决策 过 程 。 

3、 异 常 点 处 理 : 在 实际 预测 的 过 程 中 ， 获 得 的 数据 通常 存在 异常 点 。 为 了 提高 
模型 的 鲁 棒 性 ， 需 要 在 预测 过 程 中 忽略 这 些 异常 点 ， 以 减 小 预测 方法 的 误差 。 

4、 在 线 学 习 : 目前 深度 学 习 方法 主要 通过 线 下 收集 数据 进行 批 处 理 训练 ， 未 来 
需要 发 展 增 量 学 习 的 方法 ， 使 模型 能 够 对 时 间 序 列 数据 进行 在 线 分 析 预 测 。 这 有 助 
于 模型 实时 地 适应 新 数据 和 变化 。 

5、 采 用 随机 自然 启发 优化 算法 优化 深度 学 习 模 型 的 超 参数 : 随 着 深度 学 习 算 法 
的 复杂 性 增加 ， 需 要 处 理 的 超 参数 也 越 来 越 多 ， 而 超 参数 的 选择 直接 影响 算法 的 性 
能 。 随 机 自然 启发 优化 算法 灵感 来 自 群 体 智 能 和 自然 现象 ， 通 过 随机 生成 可 解 空 间 
内 的 一 定数 量 解 ， 并 在 算法 的 各 个 阶段 重复 寻找 全 局 最 优 解 ， 可 用 于 提升 深度 学 习 
模型 的 预测 能 力 ， 成 为 未 来 研究 热点 之 一 。 

6、 研 究 适 合 时 间 间 隔 不 规则 的 小 数据 集 的 网 络 架 构 : 现 有 的 Transformer 模型 
在 周期 性 好 的 大 数据 集 上 表现 出 色 ， 但 在 小 数据 量 和 时 间 间 隔 不 规则 的 数据 集中 表 
现 不 理想 。 为 了 解决 过 拟 合 问题 ， 未 来 的 研究 可 以 在 模型 架构 中 引入 重 采 样 、 揪 值 、 
滤波 或 其 他 方法 ， 为 处 理 时 间 序 列 数据 和 任务 特征 提供 新 思路 。 


7、 引 入 图 神经 网 络 (GNN) 用 于 多 变量 时 序 预 测 建 模 : 由 于 多 变量 时 序 预 测 
任务 的 潜在 变量 相关 性 复杂 ， 而 现实 世界 中 的 数据 相关 性 是 变化 的 ， 因 此 GNN 可 以 
更 好 地 处 理 多 变量 时 序 预 测 。 最 近 ， 采 用 时 间 多 项 式 图 神经 网 络 的 方法 在 短期 和 长 
期 多 变量 时 序 预测 上 取得 了 先进 的 水 平 ， 因 此 GNN 对 于 多 变量 时 序 预测 的 建 模 能 力 
值得 深入 研究 。 

8、 研 究 同时 支持 精确 形状 和 时 间 动 态 的 可 微 损失 函数 作为 评价 指标 : 在 时 间 序 
列 预测 领域 ， 已 经 使 用 了 许多 测量 度量 ， 但 现 有 的 损失 函数 往往 对 形状 和 时 间 延 后 
失真 不 具有 不 变性 。 未 来 的 研究 方向 可 以 探索 同时 支持 精确 形状 和 时 间 动 态 的 可 微 
损失 函数 ， 以 更 全 面 地 评价 模型 的 性 能 ， 帮 助 生成 更 及 时 、 更 稳健 和 更 准确 的 预测 。 

通过 对 这 些 方向 的 深入 研究 ， 基 于 深度 学 习 的 时 间 序 列 预测 方法 将 能 够 更 加 安 
全 可 靠 、 高 效 灵活 地 解决 实际 问题 ， 实 现 更 好 的 实际 应 用 效果 。 


结束 语 


随 着 信息 时 代 的 进一步 发 展 ， 在 实际 生产 生活 中 ， 任 何 领域 都 必 将 产生 大 量 的 
时 序数 据 ， 从 这 些 时 间 序 列 数据 中 发 现 变化 规律 ， 并 基于 这 些 变 化 规律 对 未 来 的 生 
产生 活 进 行 预测 的 任务 背后 强 仿 着 巨大 的 经 济 价值 和 科研 价值 。 研 究 该 时 间 序 列 数 
据 预测 任务 的 方法 从 传统 统计 学 到 机 器 学 习 ， 再 到 目前 深度 学 习 的 方法 ， 预 测 的 精 
准 度 和 速度 在 一 步 步 提 高 。 本 文 详细 回顾 了 这 一 研究 方法 变化 过 程 ， 梳 理 出 背后 的 
发 展 规律 ， 在 此 基础 上 对 于 后 续 的 研究 进行 了 展望 。 


参考 文献 


[1] 次 必 聪 ， 张 品 一 . 基于 ARIMA-LSTM 模型 的 金融 时 间 序 列 预测 [J]. 统计 与 决策 ，2 
022, 38 (11) : 145-149. DOI: ee ae aaa 

[2] 车 畅 畅 ， 王 华 伟 ， 倪 晓 梅 ， 等 . 基于 1D-CNN 和 Bi-LSTM 的 航空 发 动机 剩余 寿命 
FRM]. 机 械 工程 学 报 ，2021，57 (14) : 304-312. DOI: 10.3901/JME.2021.14.304. 
[3] SEH, FEMA, ARIS. 基于 时 间 序 列 预测 的 电子 商务 库存 优化 策略 [J. 系统 工程 ， 
2014, 32 (6) : 91-98. 

[4] 张 P. Time series forecasting using a hybrid ARIMA and neural network model[J]. N 
eurocomputing, 2003, 50: 159-175. DOI: 10.1016/S0925-2312(01)00702-0. 

[5] 李 少 雄 ， 李 本 光 . 基于 SARIMA 模型 和 X-12-ARIMA 季节 调整 方法 预测 的 比较 [J]. 
统计 与 决策 ，2018，34 (18) : 39-42. DOI: 10.13546/j.cnki.tjyjc.2018.18.008. 


[6] Chatfield C. The holt-winters forecasting procedure[J]. Journal of the Royal Statistical S 
ociety, 1978, 27 (3) : 264-279. DOI: 10.2307/2347162. 

[7] Taylor S J, Letham B. Forecasting at Scale [J]. PeerJ Preprints, 2017, 5: e3190v2. D 
OI: 10.7287/peerj.preprints.3190v2. 

[8] 陈 荣 ， 梁 昌 勇 ， 谢 福 伟 . 基于 SVR ASAE CEI Ta) Ae A OU eA IA]. 合肥 
工业 大 学 学 报 (自然 科学 版 )，2013，36 (3) : 369-374. DOI: 10.3969/j.issn. 1003-5060. 
2013.03.025. 


[9] Elsayed S, Thyssens D, Rashed A, et al. Do we really need deep learning models for tim 
e series forecasting?[Z]. arXiv: 2101.02118, 2021. DOI: 10.48550/arXiv.2101.02118. 

[10] Zahari A, Jaafar J. A novel approach of hidden Markov model for time series forecasti 
ng[C]//Proceedings of the 9th International Conference on Ubiquitous Information Manage 
ment and Communication. Bali, Indonesia: ACM, 2015: 91. DOI: 10.1145/2701126.27011 
79. 

[11] Van den Oord A, Dieleman S, Zen H G, et al. WaveNet: A generative model for raw a 
udio[C]//The 9th ISCA Speech Synthesis Workshop. Sunnyvale, CA, USA: ISCA, 2016: 1 
25. 


[12] Borovykh A, Bohte S, Oosterlee C W. Conditional time series forecasting with convol 
utional neural networks[Z]. arXiv: 1703.04691, 2017. DOI: 10.48550/arXiv.1703.04691. 
[13] Borovykh A, Bohte S, Oosterlee C W. Dilated convolutional neural networks for time 
series forecasting[J]. Journal of Computational Finance, 2019, 22 (4) : 73-101. DOI: 1 
0.21314/JCF.2019.358. 

[14] Chen Y T, Kang Y F, Chen Y X, et al. Probabilistic forecasting with temporal convolu 
tional neural network[J]. Neurocomputing, 2020, 399: 491-501. DOI: 10.1016/j.neucom. 
2020.03.011. 

[15] Liu M H, Zeng A L, Chen M X, et al. SCINet: Time series modeling and Forecasting 
with sample convolution and interaction[Z]. arXiv: 2106.09305, 2021. DOI: 10.48550/arXi 
v.2106.09305. 

[16] Hossain M S, Mahmood H. Short-term load forecasting using an LSTM neural networ 
k[C]//2020 IEEE Power and Energy Conference at Illinois (PECI). Champaign: IEEE, 2020. 
DOI: 10.1109/PECI48348.2020.9064654. 

[17] Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: probabilistic forecasting with autore 
gressive recurrent networks[J]. International Journal of Forecasting, 2020, 36 (3): 11 
81-1191. DOI: 10.1016/j.ijforecast.2019.07.001. 

[18] Rangapuram S S, Seeger M W, Gasthaus J, et al. Deep state space models for time seri 
es forecasting[C]//Proceedings of the 32nd International Conference on Neural Information 
Processing Systems. Montréal, Canada: Curran Associates Inc., 2018: 7796-7805. 

[19] Wen R F, Torkkola K, Narayanaswamy B, et al. A multi-horizon quantile recurrent for 
ecaster[Z]. arXiv: 1711.11053, 2017. DOI: 10.48550/arXiv.1711.11053. 

[20] Smyl S. A hybrid method of exponential smoothing and recurrent neural networks for t 
ime series forecasting[J]. International Journal of Forecasting, 2020, 36 (1) : 75-85.D 
OI: 10.1016/j.1jforecast.2019.03.017. 

[21] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of th 
e 31st International Conference on Neural Information Processing Systems. Long Beach, C 
A, USA: Curran Associates Inc., 2017: 6000-6010. 

[22] Wu N, Green B, Ben X, et al. Deep transformer models for time series forecasting: the 
influenza prevalence case[Z]. arXiv: 2001.08317, 2020. DOI: 10.48550/arXiv.2001.08317. 
[23] LiS Y, Jin X Y, Xuan Y, et al. Enhancing the locality and breaking the memory bottle 


13 


neck of transformer on time series forecasting[C]//Proceedings of the 33rd International Co 
nference on Neural Information Processing Systems. Vancouver, BC, Canada: Curran Asso 
ciates Inc., 2019: 471. 

[24] Zhou H Y, Zhang S H, Peng J Q, et al. Informer: Beyond Efficient Transformer for Lo 
ng Sequence Time-Series Forecasting[C]//Thirty-Fifth AAAI Conference on Artificial Intel 
ligence, AAAI 2021, Virtual Event: AAAI Press, 2021: 11106-11115. 

[25] Wu H X, Xu J H, Wang J M, et al. Autoformer: decomposition transformers with auto- 
correlation for long-term series forecasting[C]//Proceedings of the 35th International Confe 
rence on Neural Information Processing Systems. Virtual Event, Curran Associates, Inc., 20 
21, 34: 22419-22430. 

[26] Zhou T, Ma Z Q, Wen Q S, et al. FEDformer: Frequency enhanced decomposed transf 
ormer for long-term series forecasting[C]//International Conference on Machine Learning. 

Baltimore: PMLR, 2022: 27268-27286. 

[27] Wu Z H, Pan S R, Long G D, et al. Connecting the Dots: multivariate time series forec 
asting with graph neural networks[C]//Proceedings of the 26th ACM SIGKDD Internationa 
l Conference on Knowledge Discovery & Data Mining. Virtual Event, CA, USA: ACM, 20 
20: 753-763. 

[28] Satorras V G, Rangapuram S S, Januschowski T. Multivariate time series forecasting 

with latent graph inference[Z]. arXiv: 2203.03423, 2022. DOI: 10.48550/arXiv.2203.03423. 
[29] Wu Z H, Pan S R, Long G D, et al. Graph WaveNet for deep spatial-temporal graph m 
odeling[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial I 
ntelligence. Macao, China: IJCALorg, 2019: 1907-1913. 

[30] Oreshkin B N, Carpov D, Chapados N, et al. N-BEATS: Neural basis expansion analys 
is for interpretable time series forecasting[C]//8th International Conference on Learning Re 
presentations. Addis Ababa, Ethiopia: OpenReview.net, 2020. 

[31] Olivares K G, Challu C, Marcjasz G, et al. Neural basis expansion analysis with exoge 
nous variables: Forecasting electricity prices with NBEATSx[Z]. arXiv: 2104.05522, 2021. 

DOI: 10.48550/arXiv.2104.05522. 

[32] Oreshkin B N, Amini A, Coyle L, et al. FCGAGA: Fully connected gated graph archit 
ecture for spatio-temporal traffic forecasting[C]//Thirty-Fifth AAAI Conference on Artifici 
al Intelligence. Virtual Event, AAAI Press, 2021: 9233-9241. 


14 


